摘要。机器学习最近推动了人工智能的巨大进步,但这些结果可能高度集中。所需的大型数据集通常是专有的;预测通常按查询出售;如果不努力获取更多数据并维护它们,已发布的模型很快就会过时。已发布的为某些任务免费提供模型和数据的提案包括微软研究院的区块链上的去中心化和协作人工智能。该框架允许参与者协作构建数据集并使用智能合约在公共区块链上共享不断更新的模型。最初的提案概述了该框架,省略了所用模型的许多细节以及现实世界场景中的激励机制。例如,如果在配置框架时未设置适当的参数,他们工作中提出的自我评估激励机制可能会出现问题,例如参与者会丢失押金,并且模型会随着时间的推移变得不准确。在本研究中,我们评估了几种模型和配置的使用情况,以便在使用自我评估激励机制时提出最佳实践,从而使模型能够保持准确性,并使提交正确数据的善意参与者有机会获利。我们分析了三种模型的模拟结果:感知器、朴素贝叶斯和最近质心分类器,使用了三个不同的数据集:使用 Endomondo 的用户活动预测运动、对 IMDB 的电影评论进行情绪分析以及确定新闻文章是否为假。当模型托管在公共区块链上的智能合约中时,我们会比较每个数据集的几个因素:它们随时间的准确性、好用户和坏用户的余额,以及部署、更新、收取退款和收取奖励的交易成本(或 gas)。https://github.com/microsoft/0xDeCA10B 提供了以太坊区块链的免费开源实现和用 Python 编写的模拟。此版本使用原始发布后编写的较新的优化来更新 gas 成本。
主要关键词